查看原文
其他

阿里云史诗级故障原因曝光!网友评价也是绝了…

👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战/ Java 学习路线 / 一对一提问 / 学习打卡/ 赠书福利


目前, 正在星球内部带小伙伴做第一个项目:全栈前后端分离博客,手摸手,后端 + 前端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,直到项目上线。目前已更新了151小节,累计23w+字,讲解图:972张,还在持续爆肝中.. 后续还会上新更多项目,目标是将Java领域典型的项目都整一波,如秒杀系统, 在线商城, IM即时通讯,Spring Cloud Alibaba 等等,戳我加入学习,已有460+小伙伴加入(早鸟价超低)

整理:程序员的那些事(ID:iProgrammer),参考:云头条、知乎

2023 年 11 月 12 日,阿里云出现了一次史诗级故障,影响甚广。

近日网上曝光了阿里云发给客户的一份“故障分析报告”。

影响范围

1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。

2、云产品控制台、管控 API 等功能受到影响。

时间

2023 年 11 月 12 日 17:39~19.20,故障时间为 1 小时 41 分。

问题概况

2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

17:39:阿里云云产品控制台访问及管控 API 调用出现异常。

17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。

18:01:工程师定位到根因。

18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

18:35:杭州等 Region 开始恢复正常。

19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

原因

访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

1、增加 AK 服务白名单生成结果的校验及告警拦截能力。

2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。

3、增加 AK 服务白名单的快速恢复能力。

4、加强云产品侧的联动恢复能力。

网友评论

@XYC:

坏消息:降本增效到了深水区。

好消息:阿里往社会输送的是真人才。

@易希

一个坏消息和 3 个好消息。

坏消息是发生了史诗级的故障。

好消息 1: 拥有了其他云不具备的处理史诗级故障的能力。

好消息 2: 已经发生过一次概率为百万分之 3 的故障了,下次发生故障是千年以后的事情了,现在大家可以放心用了。

好消息 3: 这次真正的抓住了用户痛点。

@王万德

裁员的后遗症。

裁员总是先裁一线干活的,留下擅长写 ppt 和敢于吹牛的人。

其中“敢于吹牛的人”是最隐蔽,但是危害最大的。他们往往敢于把自己伪装成专家,欺骗外行(在互联网公司里,外行是那些高管),升职加薪,获得裁员“豁免权”,从此再也没办法被清除。

@乐扣盒子

又想到了 360 大佬的话,公司做大了之后会有死海效应,做实事的往往会最先离职,都蒸发了,最后留下的都是混日子的老油条,包括管理层也一样。

阿里云上一任 CEO 的原话是:我不关心技术,技术不值钱,我关心的是成本。

这次事故可能把阿里最后的护城河填平了。

👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战/ Java 学习路线 / 一对一提问 / 学习打卡/ 赠书福利


目前, 正在星球内部带小伙伴做第一个项目:全栈前后端分离博客,手摸手,后端 + 前端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,直到项目上线。目前已更新了151小节,累计23w+字,讲解图:972张,还在持续爆肝中.. 后续还会上新更多项目,目标是将Java领域典型的项目都整一波,如秒杀系统, 在线商城, IM即时通讯,Spring Cloud Alibaba 等等,戳我加入学习,已有460+小伙伴加入(早鸟价超低)

推荐阅读  点击标题可跳转

1、详解XGBoost 2.0重大更新!

2、贝叶斯网络的因果关系检测(Python)

3、字节 PICO 大裁员:首届开发者大会群炸锅,骨干离岗,P5悬了!


觉得本文对你有帮助?请分享给更多人

推荐关注「Python见习室」,提升Python技能


点赞和在看就是最大的支持❤️

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存